这篇文档主要介绍了荷兰代尔夫特理工大学(Delft University of Technology)关于在制造业中使用大型语言模型(LLM)工具进行知识共享的研究。以下是文档的核心内容总结: 1. **研究背景与目的** - 制造业正变得越来越知识密集型,新操作员的培训和支持面临挑战。 - 研究旨在开发一个基于LLM的系统,用于从工厂文档和专家操作员的知识中检索信息,以高效回答操作员的问题并促进新知识的共享。 2. **研究方法** - 系统采用**检索增强生成(RAG)**技术,结合工厂手册和非结构化问题报告,为LLM提供上下文信息。 - 在工厂进行了用户研究(N=9,包括管理者和操作员),评估系统的潜在影响和采用情况。 - 对多个商业和开源LLM(如GPT-4、GPT-3.5、Llama 2、Mixtral 8x7B等)进行了性能基准测试,评估其回答问题的准确性、完整性和幻觉(hallucination)情况。 3. **主要发现** - **用户反馈**: - 系统被认为易于使用,能够快速检索信息,提高问题解决效率。 - 操作员仍倾向于向人类专家学习(尤其在专家在场时)。 - 需改进界面设计、增加文档直接访问功能,并解决潜在的数据隐私和安全问题。 - **模型性能**: - GPT-4表现最佳(事实准确性97.5%,完整性95%),其次是StableBeluga2和Mixtral 8x7B。 - 开源模型(如Mixtral 8x7B)在数据隐私和定制化方面具有优势,但性能略逊于商业模型。 - 基于Llama 1的旧模型(如Guanaco)表现较差,易产生幻觉。 4. **局限性与未来方向** - 未在实际生产环境中长期测试系统,需进一步研究其对操作员工作压力和认知负荷的影响。 - 建议优化提示词设计,并开展纵向研究以验证工具的实用性。 5. **结论** - LLM工具在制造业知识管理中具有潜力,尤其是GPT-4和部分开源模型表现突出。 - 需平衡技术性能与用户需求(如安全性、易用性),同时结合人类专家的不可替代性。 **关键词**:自然语言接口、大型语言模型、制造业、知识共享、信息检索。 **发表信息**:发布于《Frontiers in Artificial Intelligence》(2024年),开放获取。